视觉宣传活动的挑战性输入设置之一是,当初始摄像头视图相距甚远时。这样的设置很困难,因为宽的基线会导致物体外观发生巨大变化并引起阻塞。本文为宽基线图像提供了一种新颖的自我监督的视觉伺服伺服方法,这不需要3D地面真相监督。回归绝对相机相对于对象的现有方法需要以3D边界框或网格的形式的对象的3D地面真实数据。我们通过利用称为3D均衡的几何特性来了解连贯的视觉表示形式 - 表示表示作为3D转换的函数以可预测的方式进行转换。为了确保功能空间忠实于基础的大地测量空间,地球保留的约束与均衡相结合。我们设计了一个暹罗网络,该网络可以有效地强制执行这两个几何特性,而无需3D监督。借助学习的模型,可以简单地通过在学习空间中的梯度并用作闭环视觉陶器的反馈来推断相对转换。我们的方法对来自YCB数据集的对象进行了评估,在使用3D监督的最新方法方面显示了视觉伺服任务上有意义的超越性能或对象对齐任务。我们的平均距离误差降低超过35%,成功率超过90%,误差耐受性。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
我们介绍了一种新的图像取证方法:将物理折射物(我们称为图腾)放入场景中,以保护该场景拍摄的任何照片。图腾弯曲并重定向光线,因此在单个图像中提供了多个(尽管扭曲)的多个(尽管扭曲)。防守者可以使用这些扭曲的图腾像素来检测是否已操纵图像。我们的方法通过估计场景中的位置并使用其已知的几何和材料特性来估算其位置,从而使光线通过图腾的光线不十障。为了验证图腾保护的图像,我们从图腾视点重建的场景与场景的外观从相机的角度来检测到不一致之处。这样的方法使对抗性操纵任务更加困难,因为对手必须以几何一致的方式对图腾和图像像素进行修改,而又不知道图腾的物理特性。与先前的基于学习的方法不同,我们的方法不需要在特定操作的数据集上进行培训,而是使用场景和相机的物理属性来解决取证问题。
translated by 谷歌翻译
我们解决了基于标签数据集基准群集技术的可靠性。外部聚类验证中的标准方案是基于每个类形成一个单一的,明显分离的群集的假设,将类标签用作地面真实群集。但是,由于这种集群标签匹配(CLM)的假设经常破坏,因此缺乏对基准数据集CLM的理智检查对外部验证的有效性产生怀疑。尽管如此,评估CLM的程度还是具有挑战性的。例如,内部聚类验证措施可用于量化同一数据集中的CLM以评估其不同的聚类,但并非旨在比较不同数据集的聚类。在这项工作中,我们提出了一种原则性的方法来生成数据集中的内部度量,以使CLM在数据集中进行比较。我们首先确定了数据集内措施之间的四个公理,并补充了Ackerman和Ben-David的数据库内公理。然后,我们提出了概括内部措施以实现这些新公理的过程,并使用它们扩展了广泛使用的Calinski-Harabasz索引,以进行数据库CLM之间的评估。通过定量实验,我们(1)验证了概括过程的有效性和必要性,(2)表明,所提出的数据与calinski-Harabasz索引索引准确地评估了整个数据集的CLM。最后,我们证明了在进行外部验证之前评估基准数据集的CLM的重要性。
translated by 谷歌翻译
使用量子卷积神经网络(QCNN)的机器学习在量子和经典数据分类中都取得了成功。在先前的研究中,在少数参数制度中,在相同的训练条件下,QCNN的分类准确性比其经典对应物具有更高的分类精度。但是,由于量子电路的大小有限,因此很难检查大规模量子模型的一般性能,这可以在不久的将来可靠地实施。我们建议转移学习是在嘈杂的中间量子量子时代利用小QCNN的有效策略。在经典到量词转移学习框架中,QCNN可以通过使用预训练的经典卷积神经网络(CNN)来解决复杂的分类问题,而无需大规模量子电路。我们对QCNN模型进行了数值模拟,并在转移学习下对MNIST数据分类进行了各种量子卷积和汇总操作,其中经典的CNN经过了时尚持续数据的培训。结果表明,在相似的训练条件下,从经典到量子CNN的转移学习比纯粹的经典转移学习模型要好得多。
translated by 谷歌翻译
归纳转移学习旨在通过利用源任务中的预训练模型来从少量培训数据中学习目标任务。大多数涉及大规模深度学习模型的策略采用预先培训的模型和进行目标任务进行初始化。但是,当使用过度参数化模型时,我们通常可以在不牺牲源任务的准确性的情况下修剪模型。这促使我们采用模型修剪来通过深度学习模型进行转移学习。在本文中,我们提出了PAC-NET,这是一种简单而有效的方法,用于基于修剪的转移学习。 PAC-NET由三个步骤组成:修剪,分配和校准(PAC)。这些步骤背后的主要思想是确定源任务的基本权重,通过更新基本权重来微调源任务,然后通过更新剩余的冗余权重来校准目标任务。在各种广泛的感应转移学习实验集中,我们表明我们的方法通过很大的边距实现了最先进的性能。
translated by 谷歌翻译
我们引入了统一的歧管近似值,具有两相优化(UMATO),这是一种降低尺寸(DR)技术,可改善UMAP,以更准确地捕获高维数据的全局结构。在Umato中,优化分为两个阶段,因此所得的嵌入可以可靠地描绘出全球结构,同时以足够的精度保留局部结构。在第一阶段,识别并预测集线器点以构建全局结构的骨骼布局。在第二阶段,剩余点添加到保存地方区域特征的嵌入中。通过定量实验,我们发现Umato(1)在保留全局结构方面优于广泛使用的DR技术,而(2)在代表局部结构方面产生了竞争精度。我们还验证了Umato在鲁棒性方面比各种初始化方法,时期数量和亚采样技术优选。
translated by 谷歌翻译
与单轴平面成像的2-D超声(US)相比,3-D US成像系统可以沿三个轴平面可视化容积。这允许完整的解剖学观察,这对于妇科(GYN)和产科(OB)应用是有用的。不幸的是,与2-D US相比,3-D US在分辨率中具有固有的限制。例如,在3-D US与3-D机械探针的情况下,例如,图像质量沿着光束方向可比较,但在其他两个轴向图像平面中通常观察到图像质量的显着劣化。为了解决这个问题,我们提出了一种新颖的无监督的深度学习方法来提高3-D US图像质量。特别是,使用{\ EM无与伦比的}高质量的2-D US图像作为参考,我们培训了最近提出的可切换Cyclean架构,以便在3-D中的每个映射平面都可以学习2-D US图像的图像质量。由于可切换架构,我们的网络还可以根据用户偏好提供对图像增强级别的实时控制,这是以用户为中心的扫描仪设置的理想选择。具有临床评估的广泛实验证实,我们的方法提供了显着提高的图像质量,也能成为用户友好的灵活性。
translated by 谷歌翻译
本文介绍了一个混合运动规划策略,将深度生成网络与传统运动规划方法相结合。现有的规划方法如* *和混合动力A *被广泛用于路径规划任务,因为它们即使在复杂的环境中确定可行的路径也是如此;但是,它们对效率有局限性。为了克服这些限制,介绍了一种基于神经网络的路径规划算法,即神经混合A *。本文使用条件变形Autiachoder(CVAE)提出通过利用CVAE在给定停车环境的信息的情况下学习有关规划空间信息的能力来指导搜索算法。基于在示威中学到的可行轨迹的分布,利用了非均匀的扩展策略。该方法有效地学习给定状态的表示,并显示了算法性能方面的改进。
translated by 谷歌翻译